智能论文笔记

Real2Sim2Real Transfer for Control of Cable-driven Robots via a Differentiable Physics Engine

Kun Wang , William R. Johnson III , Shiyang Lu , Xiaonan Huang , Joran Booth , Rebecca Kramer-Bottiglio , Mridul Aanjaneya , Kostas Bekris

分类：机器人 | 人工智能 | 机器学习

2022-09-13

紧张的机器人由刚性杆和柔性电缆组成，表现出高强度对重的比率和极端变形，使它们能够驾驭非结构化的地形，甚至可以在严酷的冲击力上生存。但是，由于其高维，复杂的动态和耦合体系结构，它们很难控制。基于物理学的仿真是制定运动策略的途径，然后可以将其转移到真实的机器人中，但是建模时态机器人是一项复杂的任务，因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题，本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的，可以在真正的机器人（即离线测量和一个随机轨迹）中进行有限的数据进行训练，并达到足够高的精度以发现可转移的运动策略。除了整体管道之外，这项工作的主要贡献包括在接触点处计算非零梯度，损失函数和轨迹分割技术，该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。

translated by 谷歌翻译

A Recurrent Differentiable Engine for Modeling Tensegrity Robots Trainable with Low-Frequency Data

Kun Wang , Mridul Aanjaneya , Kostas Bekris

分类：机器人 | 人工智能 | 机器学习

2022-02-28

鉴于存在复杂的动力学和大量DOF，由刚性杆和柔性电缆组成的紧张机器人难以准确地建模和控制。最近已经提出了可微分的物理发动机作为数据驱动的方法，用于模型识别此类复杂的机器人系统。这些发动机通常以高频执行以实现准确的模拟。但是，由于现实世界传感器的局限性，通常在如此高的频率下，通常无法在训练可区分发动机的地面真相轨迹。目前的工作着重于此频率不匹配，这会影响建模准确性。我们为紧张的机器人的可区分物理发动机提出了一个经常性结构，即使使用低频轨迹也可以有效地训练。为了以强大的方式训练这款新的经常性引擎，这项工作相对于先前的工作介绍：（i）一种新的隐式集成方案，（ii）渐进式培训管道，以及（iii）可区分的碰撞检查器。 NASA在Mujoco上的Icosahedron Superballbot的模型被用作收集培训数据的地面真实系统。模拟实验表明，一旦对Mujoco的低频轨迹进行了训练，对复发性可区分发动机进行了训练，它就可以匹配Mujoco系统的行为。成功的标准是，是否可以将使用可区分发动机的运动策略传递回地面真相系统，并导致类似的运动。值得注意的是，训练可区分发动机所需的地面真相数据数量，使该政策可以转移到地面真实系统中，是直接在地面真相系统上训练政策所需的数据的1％。

translated by 谷歌翻译

Animating Still Images

Kushagr Batra , Mridul Kavidayal

分类：计算机视觉

2022-09-21

我们提出了一种将运动传递给静止2D图像的方法。我们的方法使用深度学习将图像的一部分划分为主题，然后使用绘制来完成背景，并最终通过将图像嵌入三角形网格中，同时保留其余图像，从而在主题中添加动画。

translated by 谷歌翻译

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Primal-Dual Approach

Qinbo Bai , Amrit Singh Bedi , Mridul Agarwal , Alec Koppel , Vaneet Aggarwal

分类：机器学习

2021-09-13

强化学习被广泛用于在与环境互动时需要执行顺序决策的应用中。当决策要求包括满足一些安全限制时，问题就变得更加具有挑战性。该问题在数学上是作为约束的马尔可夫决策过程（CMDP）提出的。在文献中，可以通过无模型的方式解决各种算法来解决CMDP问题，以实现$ \ epsilon $ - 最佳的累积奖励，并使用$ \ epsilon $可行的政策。 $ \ epsilon $可行的政策意味着它遭受了违规的限制。这里的一个重要问题是，我们是否可以实现$ \ epsilon $ - 最佳的累积奖励，并违反零约束。为此，我们主张使用随机原始偶对偶方法来解决CMDP问题，并提出保守的随机原始二重算法（CSPDA），该算法（CSPDA）显示出$ \ tilde {\ tilde {\ Mathcal {o}} \ left（1 /\ epsilon^2 \ right）$样本复杂性，以实现$ \ epsilon $ - 最佳累积奖励，违反零约束。在先前的工作中，$ \ epsilon $ - 最佳策略的最佳可用样本复杂性是零约束的策略是$ \ tilde {\ Mathcal {o}}} \ left（1/\ epsilon^5 \ right）$。因此，与最新技术相比，拟议的算法提供了重大改进。

translated by 谷歌翻译

On the Approximation of Cooperative Heterogeneous Multi-Agent Reinforcement Learning (MARL) using Mean Field Control (MFC)

Washim Uddin Mondal , Mridul Agarwal , Vaneet Aggarwal , Satish V. Ukkusuri

分类：机器学习 | 人工智能

2021-09-09

平均现场控制（MFC）是减轻合作多功能加强学习（MARL）问题的维度诅咒的有效方法。这项工作考虑了可以分离为$ k $课程的$ n _ {\ mathrm {pop}} $异质代理的集合，以便$ k $ -th类包含$ n_k $均匀的代理。我们的目标是通过其相应的MFC问题证明这一异构系统的Marl问题的近似保证。我们考虑三种情景，所有代理商的奖励和转型动态分别被视为$（1）美元的职能，每班的所有课程，$（2）美元和$（3） $边际分布的整个人口。我们展示，在这些情况下，$ k $ -class marl问题可以通过mfc近似于$ e_1 = mathcal {o}（\ frac {\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {u} |}}}}}} {n _ {\ mathrm {pop}}} \ sum_ {k} \ sqrt {k}）$，$ e_2 = \ mathcal {o}（\ left [\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {u} |} \ \ sum_ {k} \ frac {1} {\ sqrt {n_k}}）$和$ e_3 = \ mathcal {o} \ left（\ left [\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {} |} \ leftle] \ left [\ frac {a} {n _ {\ mathrm {pop}}} \ sum_ {k \在[k]}} \ sqrt {n_k} + \ frac {n} {\ sqrt {n} {\ sqrt {n \ mathrm {pop}}} \右] \ over）$，其中$ a，b $是一些常数和$ | mathcal {x} |，| \ mathcal {u} | $是每个代理的状态和行动空间的大小。最后，我们设计了一种基于自然的梯度（NPG）基于NPG的算法，它在上面规定的三种情况下，可以在$ \ Mathcal {O}（E_J）$错误中收敛到$ \ Mathcal的示例复杂度{ o}（e_j ^ { - 3}）$，j \ in \ {1,2,3 \} $。

translated by 谷歌翻译

Markov Decision Processes with Long-Term Average Constraints

Mridul Agarwal , Qinbo Bai , Vaneet Aggarwal

分类：机器学习 | 人工智能

2021-06-12

我们考虑了马尔可夫决策过程（CMDP）的问题，其中代理与Markov Unichain决策过程进行交互。在每次互动中，代理都会获得奖励。此外，还有$ K $成本功能。该代理商的目标是最大程度地提高长期平均奖励，同时使$ k $的长期平均成本低于一定阈值。在本文中，我们提出了CMDP-PSRL，这是一种基于后取样的算法，使用该算法，代理可以学习与CMDP相互作用的最佳策略。此外，对于具有$ s $州的MDP，$ A $ ACTICE和DIAMETER $ D $，我们证明，遵循CMDP-PSRL算法，代理商可能会束缚不累积最佳策略奖励的遗憾。（poly（dsa）\ sqrt {t}）$。此外，我们表明，任何$ k $约束的违规行为也受$ \ tilde {o}（poly（dsa）\ sqrt {t}）$的限制。据我们所知，这是第一批获得$ \ tilde {o}（\ sqrt {t}）$遗憾的Ergodic MDP的界限，并具有长期平均约束。

translated by 谷歌翻译